临床研究样本量不足时,会带来什么后果?
当一个临床研究得到阴性结果时,研究者典型的第一反应是:什么出错了?治疗是否真的无效?是否还有一线希望?接下来该怎么做?
新英格兰医学杂志发表的一篇文章,列举了试验的主要结局为阴性时,应该考虑的问题[1]。
表1. 主要结局阴性时应当考虑的问题
上一期我们讨论了第1个问题: 当试验结果为阴性时,是否有潜在获益的一些迹象?今天,我们再来讨论第2个问题:试验的把握度是否不足?
一、什么是把握度?
第1个问题中已经提到,一项研究得到阴性结果是,可能是治疗措施真实无效。然而,还有一种情况:如果研究纳入的患者数太少,也可能会产生阴性结果。这种情况下,干预措施是实际有效的,但由于样本量太小,产生了假阴性结果。
在统计学中,我们把这种假阴性错误称为“Ⅱ型错误”。统计学中用β表示Ⅱ型错误发生的概率,没有犯Ⅱ型错误的概率为1-β,即把握度,又称检验效能(power of test)。做研究设计时,如果要求的把握度越大,则要求样本含量也越多。(想详细了解可点击:实例教程:5张动图告诉你样本量是咋变化的;为什么要估算样本量?)
二、试验的把握度不足会带来什么后果?
既往研究已经证实β受体阻断剂对特发性扩张性心肌病所导致的心力衰竭有显著效果,可以改善心功能和心衰症状。但是,该类药物对患者生存期的改善尚未进行大规模随机试验来验证。CIBIS I试验[2] 拟评价比索洛尔对心力衰竭患者生存率的影响,该试验纳入641例各型慢性心力衰竭和(或)左室射血分数<40%的患者,观察组和对照组分别在利尿、扩血管基础治疗的基础上,给予比索洛尔和安慰剂治疗,平均随访时间为1.9年。
随访结束时,比索洛尔显著改善了患者的心功能状况,使心功能失常需要住院治疗患者数明显减少,患者心功能分级(纽约分级)平均降低了至少一个分级,进一步证实了比索洛尔可改善收缩性心力衰竭患者的心功能。同时,患者对比索洛尔的耐受性良好,治疗早期两组退出治疗人数的差异无统计学意义(23.4% VS 25.5%)。
但是,与安慰剂组的全因死亡率相比(20.9%),比索洛尔并没有降低心衰患者的全因死亡率(16.6%)(HR=0.80, 95%CI:0.56-1.15,P=0.22)(图1)。两组在猝死发生人数以及室性心动过速或室颤所致死亡人数方面的差异也没有统计学意义。本次试验结果显示,比索洛尔对心力衰竭患者的生存率没有显著影响,结果为阴性。
三、 扩大样本量后得到阳性结果
幸运的是,赞助者坚持进一步试验,后来的CIBIS II试验[3]纳入了2647例患者,比索洛尔组1327例,安慰剂组1320例。该试验在第二次中期分析后,发现比索洛尔能明显降低心衰患者的死亡率,试验提前停止。接受比索洛尔治疗的患者比接受安慰剂治疗的患者的全因死亡率更低(11.8% vs 17.3%;HR:0.66;95%CI:0.54-0.81;P<0.0001;图2);比索洛尔组患者的猝死率也明显低于安慰剂组(3.6% vs 6.3%,HR:0.56;95%CI:0.39-0.80,P=0.0011)。值得注意的是,CIBIS II试验得到的结果(HR=0.66),包含在CIBIS I试验结果的95%可信区间内(0.56-1.15)。
一般来说,当试验(样本量)太小而不能检验出的治疗效果时,宜将结果描述为不确定而不是否定。此时,可以通过招募更多的高风险患者、延长随访时间、定义发生数较多的结局(包括使用复合结局),或将以上几种方式组合,来满足达到检验效能所需要的样本量。
参考文献
1. N Engl J Med. 2016, 375: 861-70.
2. Circulation. 1994: 90: 1765-73.
3. Lancet. 1999, 353: 9-13.
样本量的具体计算方法与研究设计、结局指标等有关系,已经有相应的文章讲述了不同情况下的样本量计算方法,赶紧戳下方文章查看吧:
关注医咖会,用正确的姿势读文献
我们建了一个微信群,有临床研究设计或统计学方面的难题?快加小咖个人微信(xys2016ykf),拉你进群和其他小伙伴们一起交流学习。诚邀各位伙伴加入我们创作内容,请和小咖联系,和大家分享你喜爱的临床研究以及有用的研究方法学知识。
点击左下角“阅读原文”,看看医咖会既往推送了哪些研究设计或统计学文章。还可以到医咖会公众号下方的自定义菜单,点击“直接搜索”,查找你想了解的内容。